iT邦幫忙

2023 iThome 鐵人賽

DAY 4
0
AI & Data

紮實的ML機器學習原理~打造你對資料使用sklearn的靈敏度系列 第 4

DAY 4 「隨機森林(Random Forest)」sklearn來進行乳腺癌檢測~

  • 分享至 

  • xImage
  •  

決策樹:隨機森林的基礎是多個決策樹的集成。決策樹是一種基於特徵的分類器,它通過一系列的問題來對數據進行分類。
隨機性:隨機森林在建立每個決策樹時引入了隨機性,這包括隨機地選擇特徵進行分割和隨機選擇訓練數據的子集。
集成:隨機森林通過合併多個決策樹的預測來進行最終的預測。這種集成策略可以提高模型的穩定性和性能。

  1. 數據收集和理解
    收集關於乳腺癌的相關數據,例如腫塊大小、細胞形態等。
    理解數據的特徵,確保數據集的準確性和完整性。
  2. 數據預處理
    處理缺失值:填充缺失數據或者刪除相應樣本。
    編碼類別變數(如果有的話)。
# 1. 導入所需的庫和數據集
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# 2. 載入數據
data = load_breast_cancer()
X = data.data
y = data.target

# 3. 將數據集劃分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. 初始化隨機森林模型並訓練
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# 5. 用測試集評估模型性能
y_pred = rf_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

# 6. 打印結果
print(f'準確度:{accuracy}')
print(f'分類報告:\n{report}')


上一篇
DAY 3 「決策樹Decision Tree」對鳶尾花數據進行分類~~
下一篇
DAY 5 「PCA & SVD」當特徵太多要怎麼辦?
系列文
紮實的ML機器學習原理~打造你對資料使用sklearn的靈敏度30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言